无尽的欲,田中瞳hitomi超乳观看,跳进地理书的旅行第二季完整观看,749局电影高清在线观看,毒液3在线观看免费完整版高清,遇见王沥川电视剧高清免费观看全集,庆余年高清下载mp4下载

  • 賓夕法尼亞州立大學(xué)發(fā)明了一種讓AI無處遁形的檢測(cè)方法

      發(fā)布時(shí)間:2026-06-27 06:23:54   作者:玩站小弟   我要評(píng)論
      拉薩10月13日電 (貢確)由西藏自治區(qū)教育廳主辦、拉薩。

    這項(xiàng)由賓夕法尼亞州立大學(xué)計(jì)算機(jī)科學(xué)團(tuán)隊(duì)完成的研究,以預(yù)印本形式發(fā)布于2026年5月,論文編號(hào)為arXiv:2605.21856,有興趣深入了解的讀者可通過該編號(hào)查詢完整論文。

    你有沒有這樣的經(jīng)歷——考試前偷偷背了答案,上了考場(chǎng)照樣能寫得漂漂亮亮,讓人以為你真的懂了?只要沒人拆穿,一切看起來都完美。當(dāng)下大型語言模型(也就是我們常說的AI大模型)在各類數(shù)學(xué)推理測(cè)試中表現(xiàn)驚人,但背后藏著一個(gè)讓研究人員寢食難安的問題:這些模型,究竟是真的學(xué)會(huì)了解題,還是偷偷背了答案?

    賓夕法尼亞州立大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),這個(gè)問題遠(yuǎn)比表面上看起來復(fù)雜得多。不僅有些模型確實(shí)"背了答案",更麻煩的是,它們還進(jìn)化出了一種極其狡猾的手段——把偷背來的答案藏在貌似合理的推理過程后面,讓人根本分辨不出真假。研究團(tuán)隊(duì)把這種現(xiàn)象稱為"推理掩蓋記憶",并為此專門設(shè)計(jì)了一套反作弊系統(tǒng),名叫零鏈?zhǔn)剿伎继结?,英文縮寫是ZCP。

    **一、考場(chǎng)上的作弊者:數(shù)據(jù)污染是怎么回事**

    在深入了解這套反作弊系統(tǒng)之前,先搞清楚"數(shù)據(jù)污染"是什么意思。

    評(píng)測(cè)AI模型的能力,需要專門的考題集,就像高考一樣,平時(shí)不對(duì)外公開,到了測(cè)試時(shí)才亮出來。這些考題集學(xué)界稱為"基準(zhǔn)測(cè)試集"。正常情況下,模型在訓(xùn)練時(shí)不應(yīng)該見過這些考題,測(cè)試成績(jī)才能反映它的真實(shí)能力。

    然而,有些模型的訓(xùn)練數(shù)據(jù)中悄悄混入了這些考題,甚至連答案也一起打包進(jìn)去了。這就像學(xué)生上考場(chǎng)前已經(jīng)拿到了原題,成績(jī)自然亮眼,但這完全不代表他真正理解了數(shù)學(xué)。這種情況就叫做數(shù)據(jù)污染。

    更麻煩的是,現(xiàn)實(shí)中的污染遠(yuǎn)不止這么直接。有些心存不良的模型發(fā)布方會(huì)對(duì)考題進(jìn)行改頭換面,把"杰克有12本書"改成"瑪麗有一摞書脊總厚12英寸",數(shù)字沒變、答案沒變,但說法完全不同。這種手段叫做"規(guī)避性污染"或"間接污染"。現(xiàn)有的檢測(cè)方法大多靠比對(duì)文字是否相似,遇到這種改頭換面的手法就完全失效了——文字變了,但核心內(nèi)容根本沒變。

    研究團(tuán)隊(duì)檢驗(yàn)了幾種主流檢測(cè)方法的表現(xiàn),結(jié)論相當(dāng)令人沮喪?;诮y(tǒng)計(jì)概率的檢測(cè)方法(如DPCC)在面對(duì)改寫過的題目時(shí),得分會(huì)從0.73驟降到0.19,幾乎失去了檢測(cè)能力。依靠讓模型"補(bǔ)全題目前半段"來判斷是否見過原題的數(shù)據(jù)重建方法,在改寫題目上的識(shí)別準(zhǔn)確率同樣大幅下滑,從約40%跌到不足20%。還有一種方法是把數(shù)據(jù)集名稱悄悄加進(jìn)提示詞里,看模型是否會(huì)自動(dòng)補(bǔ)全后續(xù)內(nèi)容,但惡意的發(fā)布方完全可以在訓(xùn)練時(shí)把這些標(biāo)識(shí)信息刪干凈,讓這招也徹底無效。

    **二、推理鏈?zhǔn)侨绾螏椭鶤I"掩蓋作弊"的**

    研究團(tuán)隊(duì)在研究過程中有了一個(gè)關(guān)鍵發(fā)現(xiàn),正是這個(gè)發(fā)現(xiàn)為整套檢測(cè)方法奠定了基礎(chǔ)——鏈?zhǔn)剿季S推理不僅沒能幫助暴露作弊,反而成了最好的"遮羞布"。

    什么是鏈?zhǔn)剿季S推理?簡(jiǎn)單來說,就是AI在給出答案之前,先把解題步驟一步一步寫出來,就像在草稿紙上演算。這種方式確實(shí)能幫助AI解決復(fù)雜問題,也讓人覺得它在認(rèn)真"思考"。

    但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)微妙的問題:當(dāng)模型偷背了答案時(shí),它依然可以生成一段看起來完整、合理的推理過程,然后自然地引出那個(gè)它早已"知道"的答案。從旁觀者角度來看,推理過程有模有樣,答案也對(duì),誰能說它是在作弊呢?

    這就像一個(gè)記住了解題答案的學(xué)生,上了考場(chǎng)之后反推出一條看起來像推導(dǎo)過程的演算過程,工工整整地寫在試卷上。評(píng)卷老師看到解題過程完整、答案正確,自然給滿分,但真正的能力從未被檢驗(yàn)。

    為了驗(yàn)證這一點(diǎn),研究團(tuán)隊(duì)做了一個(gè)逐步截?cái)嗤评礞湹膶?shí)驗(yàn)。他們讓模型在只獲得完整推理過程的0%、20%、40%……一直到100%的情況下回答問題,分別統(tǒng)計(jì)在"已經(jīng)見過的題目"和"沒有見過的干凈題目"上的答題正確率差距。結(jié)果顯示,當(dāng)模型能看到完整推理鏈時(shí),兩類題目的正確率差距相當(dāng)小,幾乎分辨不出來。但隨著推理鏈被逐漸截?cái)啵罹嚅_始擴(kuò)大;等到推理鏈完全消失、模型必須直接給出答案時(shí),差距急劇拉大。這意味著,那條推理鏈確實(shí)一直在掩蓋著模型內(nèi)心深處"直接知道答案"的捷徑。

    **三、零鏈?zhǔn)剿伎继结槪簭?qiáng)迫AI"不打草稿"直接作答**

    發(fā)現(xiàn)了這個(gè)規(guī)律之后,反制方案的思路就變得清晰起來——既然推理鏈?zhǔn)钦谛卟?,那就把遮羞布拿走,?qiáng)迫模型直接給出答案,不準(zhǔn)打草稿。

    這就是零鏈?zhǔn)剿伎继结樀暮诵牟僮鳌T谡y(cè)試中,模型會(huì)先生成推理過程再給出答案。而在零鏈?zhǔn)剿伎继结樀臏y(cè)試中,研究團(tuán)隊(duì)會(huì)通過特殊的方式強(qiáng)制模型跳過推理,直接輸出最終答案。

    對(duì)于可以直接操控內(nèi)部參數(shù)的開源模型,比如Qwen系列,研究團(tuán)隊(duì)會(huì)在模型的輸出前面強(qiáng)行預(yù)填"最終答案是:\[ \boxed{"這樣的文字片段,讓模型只能補(bǔ)全答案本身,無法生成任何推理步驟。對(duì)于像GPT系列這樣只能通過接口調(diào)用的封閉模型,則在發(fā)給模型的問題末尾加上一段嚴(yán)格指令,要求它"只把最終答案放在方框內(nèi)輸出,不得有任何其他內(nèi)容,包括推理或解釋",通過提示詞工程達(dá)到同樣的效果。

    強(qiáng)迫模型"不打草稿"之后,背了答案的模型和沒背答案的模型就有了截然不同的表現(xiàn)。沒背過答案的模型在面對(duì)它沒見過的題時(shí),失去推理鏈的輔助,正確率會(huì)明顯下降;而背了答案的模型則可以直接從記憶中調(diào)出答案,正確率幾乎不受影響。差距就這樣暴露了。

    **四、參照組的設(shè)計(jì):如何區(qū)分"真本事"和"背答案"**

    不過,僅僅強(qiáng)迫模型直接作答還不夠,因?yàn)檫@里有一個(gè)容易被忽視的問題:萬一這個(gè)模型真的特別厲害,不需要推理過程就能算出答案呢?

    這個(gè)疑問是合理的。畢竟,有些題目本身就不需要多少推理,模型憑借對(duì)數(shù)學(xué)關(guān)系的理解,直接給出答案也完全合理。如果把這種真實(shí)能力誤判為作弊,檢測(cè)就失去了意義。

    為了把"真本事"和"背答案"區(qū)分開來,研究團(tuán)隊(duì)引入了一組參照題目。他們把原來的考題進(jìn)行了一種特殊改造——只改數(shù)字,不改結(jié)構(gòu)。具體來說,就是保持題目的邏輯框架和解題思路完全不變,但把里面所有的數(shù)值都換掉(保持?jǐn)?shù)量級(jí)相近,比如原來是12的地方換成15)。這樣一來,新題和原題的難度完全一致,解法也完全一樣,但答案變了,而且模型絕對(duì)沒有見過這道新題。

    研究論文中有一個(gè)非常直觀的例子。原題是:"杰克有一摞書,總厚12英寸。他知道80頁厚度為1英寸。如果他有6本書,平均每本多少頁?"答案是160頁。改寫后的參照題是:"艾米麗有一堆疊放的筆記本,高度為15英寸。她知道90頁等于1英寸厚。如果她有5本,每本平均多少頁?"答案變成了270頁。

    這兩道題的解法思路完全一樣,難度也相同,但一道是模型見過的(直接的或改寫過的),另一道是全新的。如果模型在兩道題上的直接作答正確率相近,說明它是憑真本事答題;如果在原題上正確率明顯更高,說明它背了答案,遇到新題就露餡了。

    為了大規(guī)模地生產(chǎn)這些參照題,研究團(tuán)隊(duì)設(shè)計(jì)了一套自動(dòng)化流水線,由一個(gè)生成模型負(fù)責(zé)創(chuàng)造新題并給出解答,再由兩個(gè)相互獨(dú)立的評(píng)判模型各自驗(yàn)證答案是否正確。只有兩個(gè)評(píng)判模型都認(rèn)可,這道參照題才會(huì)被納入?yún)⒄占?,確保參照題的質(zhì)量可靠。

    **五、污染置信度:把"有沒有作弊"變成一個(gè)精確的數(shù)字**

    有了零鏈?zhǔn)剿伎继结樀臏y(cè)試結(jié)果之后,研究團(tuán)隊(duì)還需要一個(gè)方式來量化"到底有多大可能是在作弊"。畢竟,現(xiàn)實(shí)世界里的數(shù)據(jù)污染程度千差萬別,有的模型可能只接觸過一小部分考題,有的則把整個(gè)題庫都背了。用簡(jiǎn)單的"是/否"來判斷太過粗糙,需要一個(gè)能反映污染嚴(yán)重程度的連續(xù)數(shù)值。

    為此,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)叫做"污染置信度"的指標(biāo),數(shù)值范圍在0.5到1之間。0.5代表沒有任何統(tǒng)計(jì)證據(jù)表明存在污染,1則代表幾乎可以確定存在記憶性背題。

    這個(gè)數(shù)字的計(jì)算過程分兩步。第一步,用統(tǒng)計(jì)方法檢驗(yàn)?zāi)P驮谠}上和參照題上的表現(xiàn)差距是否在統(tǒng)計(jì)意義上足夠顯著——簡(jiǎn)單說就是,這個(gè)差距到底有多大概率只是運(yùn)氣好,而不是真的背了答案。對(duì)于連續(xù)型指標(biāo)(如每個(gè)詞的生成概率),使用自舉抽樣檢驗(yàn),重復(fù)抽樣一萬次;對(duì)于離散型指標(biāo)(如答對(duì)了幾道),使用麥克尼馬爾檢驗(yàn)。第二步,把得到的概率值轉(zhuǎn)換成一個(gè)貝葉斯意義上的后驗(yàn)概率,也就是"在看到這些結(jié)果之后,模型真的背了答案的概率是多少"。這個(gè)轉(zhuǎn)換假設(shè)事先不偏袒任何一方(背了或沒背各占50%的可能性),讓數(shù)字本身來說話。

    這樣設(shè)計(jì)的好處是,當(dāng)兩組表現(xiàn)差距不夠大時(shí),置信度會(huì)保持在0.5附近,意味著沒有證據(jù)支持污染的結(jié)論;當(dāng)差距越來越顯著時(shí),置信度會(huì)朝著1.0逼近,明確指向作弊行為。整個(gè)過程不需要主觀判斷,完全由數(shù)學(xué)來決定結(jié)論。

    **六、檢測(cè)有哪些具體工具?四種指標(biāo)各有分工**

    在實(shí)際檢測(cè)中,研究團(tuán)隊(duì)為零鏈?zhǔn)剿伎继结樑鋫淞怂姆N不同的衡量指標(biāo),針對(duì)不同的使用場(chǎng)景各有側(cè)重。

    第一種叫做準(zhǔn)確率,就是直接看模型在強(qiáng)制不打草稿的情況下答對(duì)了多少題。這是最直觀的指標(biāo),對(duì)原題和參照題分別統(tǒng)計(jì),對(duì)比差異。第二種叫做一致性,看模型在不打草稿時(shí)給出的答案,和它在正常打草稿時(shí)給出的答案是否一致。這個(gè)指標(biāo)有一個(gè)特別的優(yōu)勢(shì)——不需要知道標(biāo)準(zhǔn)答案,只要比較兩種模式下的輸出就行,適合在沒有答案的情況下使用。第三種是首詞生成概率,即在強(qiáng)制不打草稿的情況下,模型生成標(biāo)準(zhǔn)答案第一個(gè)詞的概率是多少。背了答案的模型對(duì)第一個(gè)詞往往有更高的"直覺反應(yīng)",這個(gè)概率會(huì)明顯更高。第四種是全詞生成概率,把整個(gè)答案每個(gè)詞的生成概率做幾何平均,得到模型"自然流露"出完整答案的綜合概率。

    這四種指標(biāo)形成了從"最方便但要求最多"到"最不方便但要求最少"的梯度?;诟怕实膬煞N指標(biāo)信號(hào)最強(qiáng)、最敏感,但需要能訪問模型內(nèi)部參數(shù),封閉的商用API模型無法使用?;跍?zhǔn)確率的指標(biāo)在中等規(guī)模的題目集下就能給出可靠結(jié)論,適合有標(biāo)準(zhǔn)答案的場(chǎng)景?;谝恢滦缘闹笜?biāo)要求最低,既不需要內(nèi)部參數(shù),也不需要標(biāo)準(zhǔn)答案,但需要更多題目才能統(tǒng)計(jì)出顯著差異。

    **七、實(shí)驗(yàn)驗(yàn)證:在已知"有沒有背題"的情況下測(cè)試效果**

    檢測(cè)工具設(shè)計(jì)好之后,當(dāng)然要在實(shí)際場(chǎng)景中驗(yàn)證效果。研究團(tuán)隊(duì)采用了兩種不同的驗(yàn)證路徑。

    第一種驗(yàn)證路徑叫做"翻轉(zhuǎn)實(shí)驗(yàn)",利用的是兩個(gè)已有的數(shù)學(xué)推理專用模型:Qwen2.5-Math-7B和DeepSeek-Math-7B。這兩個(gè)模型的技術(shù)報(bào)告明確寫明了它們的訓(xùn)練數(shù)據(jù)包含了數(shù)學(xué)考題集GSM8K和MATH的訓(xùn)練部分,所以可以確定這兩個(gè)模型對(duì)這些題目是"背過"的。研究團(tuán)隊(duì)同時(shí)使用了一個(gè)叫做GSM1K的題目集作為對(duì)照,這個(gè)題目集發(fā)布時(shí)間晚于兩個(gè)模型的訓(xùn)練截止日期,因此可以確定它們沒有見過。

    在已經(jīng)背過的GSM8K和MATH題目上,零鏈?zhǔn)剿伎继结樀奈廴局眯哦仍趲缀跛兄笜?biāo)上都逼近或達(dá)到了1.000,而在沒有背過的GSM1K題目上,污染置信度則穩(wěn)定在0.500附近,完全符合預(yù)期。

    更關(guān)鍵的是,為了模擬"規(guī)避性污染"的情景,研究團(tuán)隊(duì)把GSM8K和MATH的題目交給GPT-4o進(jìn)行改寫——改變文字表述,保留數(shù)字和答案——然后在改寫后的版本上重新測(cè)試。結(jié)果令人振奮:即便是在改寫后的題目上,污染置信度依然接近1.000。這說明零鏈?zhǔn)剿伎继结槞z測(cè)的是模型內(nèi)部深層的"問題到答案的捷徑映射",而不是表面文字的相似度,改寫文字根本破壞不了這條捷徑。

    第二種驗(yàn)證路徑更加嚴(yán)格——研究團(tuán)隊(duì)自己動(dòng)手制造了"作弊模型",然后測(cè)試能否抓住。他們把兩個(gè)基礎(chǔ)模型Qwen2.5-Math-7B和Qwen3-8B分別在改寫版的考題上進(jìn)行微調(diào),讓它們學(xué)習(xí)改寫版題目的解法,然后在原版題目上測(cè)試。微調(diào)所用的數(shù)學(xué)題來自競(jìng)賽級(jí)別的Omni-MATH和跨領(lǐng)域的MMLU-Pro加XFINBENCH,每組題目各自均分為兩半,一半用于制造污染,另一半完全隔離不參與訓(xùn)練,作為干凈對(duì)照。

    訓(xùn)練完成后,在用于訓(xùn)練的那一半題目上,模型準(zhǔn)確率有了顯著提升——Qwen2.5-Math在Omni-MATH上從21%跳到了43%,Qwen3在多領(lǐng)域數(shù)據(jù)上從37%跳到了66%。而在沒有參與訓(xùn)練的那一半題目上,準(zhǔn)確率幾乎沒有變化,這證實(shí)了性能提升確實(shí)來自背題而非真正能力的提升。

    面對(duì)這些自己制造的作弊模型,零鏈?zhǔn)剿伎继结樢廊怀晒Φ刈R(shí)別出了污染。在已經(jīng)背過的題目上,置信度接近1.000;在干凈題目上,置信度維持在0.500附近。精準(zhǔn)區(qū)分,沒有誤判。

    **八、數(shù)據(jù)集大小的影響:要抓住作弊者,需要多少題目**

    研究團(tuán)隊(duì)還專門分析了一個(gè)實(shí)際操作中很重要的問題——要抓住作弊行為,至少需要多少道題?

    通過在50到1000題之間取不同規(guī)模的樣本進(jìn)行實(shí)驗(yàn),研究發(fā)現(xiàn)各類指標(biāo)有著明顯不同的"抓人效率"。依靠概率的兩種指標(biāo)最靈敏,哪怕只有50到100題,置信度就能超過0.94,因?yàn)槊康李}都貢獻(xiàn)了連續(xù)的概率數(shù)值,信息量遠(yuǎn)比簡(jiǎn)單的對(duì)錯(cuò)更豐富?;跍?zhǔn)確率的指標(biāo)需要中等規(guī)模,大約200到500題才能穩(wěn)定給出高置信度,但它完全不需要訪問模型內(nèi)部,適合外部審計(jì)?;谝恢滦缘闹笜?biāo)最"省事"(不需要答案也不需要內(nèi)部參數(shù)),但也需要大約1000題才能穩(wěn)定暴露差異。

    這意味著,在實(shí)際使用中,審計(jì)者可以根據(jù)自己能獲取的條件靈活選擇:如果能訪問模型內(nèi)部參數(shù),用100題左右就夠了;如果只能通過接口調(diào)用,用幾百題的準(zhǔn)確率對(duì)比也能達(dá)到目的;如果連標(biāo)準(zhǔn)答案都沒有,只要題目數(shù)量足夠,一致性指標(biāo)依然可靠。

    **九、現(xiàn)實(shí)世界的掃描:哪些知名模型被檢測(cè)到了污染**

    最后,研究團(tuán)隊(duì)把目光投向了當(dāng)前真實(shí)部署的知名模型,對(duì)它們進(jìn)行了一次"抽查"。被檢測(cè)的模型包括Qwen-2.5-Math、Qwen-3、GPT-4o和GPT-5.1,使用的考題是GSM8K的測(cè)試集和MATH-500。

    檢測(cè)結(jié)果相當(dāng)耐人尋味。Qwen-2.5-Math在兩個(gè)數(shù)據(jù)集上都表現(xiàn)出了明顯的污染跡象,概率類指標(biāo)的置信度超過0.998,說明這個(gè)模型深度記憶了這兩套題目的答案。Qwen-3的情況則很有趣:在MATH-500上污染跡象明顯,但在GSM8K上的所有四個(gè)指標(biāo)置信度都在0.500附近,強(qiáng)烈暗示它在GSM8K上是干凈的,可能開發(fā)團(tuán)隊(duì)在準(zhǔn)備這個(gè)版本時(shí)進(jìn)行了更嚴(yán)格的數(shù)據(jù)過濾。

    在商用封閉模型中,GPT-4o在兩個(gè)數(shù)據(jù)集上都顯示出了明確的污染,置信度超過0.85。而GPT-5.1則完全不同,置信度在兩個(gè)數(shù)據(jù)集上都維持在約0.5,接近完全干凈的狀態(tài)。研究團(tuán)隊(duì)分析認(rèn)為,這可能意味著OpenAI在GPT-5.1的開發(fā)過程中采取了更為主動(dòng)積極的去污染措施或數(shù)據(jù)過濾策略。

    需要說明的是,對(duì)商用模型的檢測(cè)完全通過提示詞工程實(shí)現(xiàn),無需訪問任何內(nèi)部參數(shù),這也證明了零鏈?zhǔn)剿伎继结樤谧钍芟拗频膱?chǎng)景下依然具備實(shí)際操作能力。

    **十、研究本身的局限與坦誠(chéng)**

    研究團(tuán)隊(duì)也坦率地指出了當(dāng)前方法的局限所在。對(duì)于開源模型,通過在輸出前預(yù)填特定文字片段來強(qiáng)制繞過推理是完全可靠的;但對(duì)于封閉商用模型,目前只能依靠提示詞工程,而隨著未來的商用模型被更深度地優(yōu)化為"必須先推理后回答",這種提示詞方法的可靠性可能會(huì)下降。畢竟,一個(gè)被訓(xùn)練到極度擅長(zhǎng)推理的模型,可能無論怎樣要求它都會(huì)先生成一段推理再給出答案,這時(shí)候提示詞就失去了效力。這個(gè)問題被列為未來需要進(jìn)一步解決的重要方向。

    歸根結(jié)底,這項(xiàng)研究解決的是一個(gè)影響整個(gè)AI行業(yè)誠(chéng)信基礎(chǔ)的問題。當(dāng)我們用排行榜上的高分來選擇應(yīng)該相信哪個(gè)模型、把哪個(gè)模型部署到關(guān)鍵場(chǎng)景時(shí),這些分?jǐn)?shù)究竟代表真實(shí)能力還是對(duì)考題的記憶,至關(guān)重要。零鏈?zhǔn)剿伎继结樚峁┝艘环N不需要接觸訓(xùn)練數(shù)據(jù)、不需要了解模型內(nèi)部結(jié)構(gòu)就能可靠檢測(cè)的方法,把"作弊檢測(cè)"這件事變得切實(shí)可行。

    考慮到未來AI模型的應(yīng)用會(huì)越來越廣泛和深入,確保性能評(píng)估的真實(shí)性不僅是學(xué)術(shù)問題,也直接關(guān)系到每一個(gè)依賴AI系統(tǒng)做決策的人。這套檢測(cè)框架的價(jià)值,或許正在于它讓這種可信性變得可驗(yàn)證,而不只是停留在發(fā)布方的一紙承諾。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過arXiv編號(hào)2605.21856查閱原始論文,研究團(tuán)隊(duì)也在GitHub上公開了完整代碼。

    Q&A

    Q1:數(shù)據(jù)污染對(duì)AI評(píng)測(cè)會(huì)產(chǎn)生多大影響?

    A:數(shù)據(jù)污染會(huì)讓AI模型在測(cè)試集上的分?jǐn)?shù)虛高,因?yàn)槟P涂赡鼙尺^了這些題目的答案,而非真正掌握了解題能力。這意味著排行榜上的高分可能并不代表真實(shí)水平,開發(fā)者和用戶據(jù)此做出的部署決策可能存在嚴(yán)重偏差,實(shí)際使用效果會(huì)比測(cè)試分?jǐn)?shù)顯示的差很多。

    Q2:零鏈?zhǔn)剿伎继结槥槭裁茨軝z測(cè)到改寫過的題目中的污染?

    A:零鏈?zhǔn)剿伎继结槞z測(cè)的不是文字是否相似,而是模型內(nèi)部有沒有形成"題目語義直接對(duì)應(yīng)答案"的快捷通道。改寫只改變了表面文字,但題目的數(shù)值和邏輯結(jié)構(gòu)沒變,所以這條捷徑依然存在。與此同時(shí),參照題改變了數(shù)值,徹底打斷了這條捷徑,對(duì)比之下差距就暴露出來了。

    Q3:GPT-5.1為什么污染置信度接近0.5?

    A:研究團(tuán)隊(duì)的檢測(cè)結(jié)果顯示GPT-5.1在GSM8K和MATH-500上的污染置信度均接近0.5,即幾乎沒有統(tǒng)計(jì)意義上的污染證據(jù)。研究團(tuán)隊(duì)分析認(rèn)為,這很可能說明OpenAI在GPT-5.1的開發(fā)階段實(shí)施了更嚴(yán)格的數(shù)據(jù)去污染或過濾措施,從而避免了對(duì)這些標(biāo)準(zhǔn)測(cè)試集的記憶性學(xué)習(xí)。